智能论文笔记

Predicting trajectory behaviour via machine-learned invariant manifolds

Vladimír Krajňák , Shibabrat Naik , Stephen Wiggins

分类：机器学习

2021-07-21

在本文中，我们使用支持向量机（SVM）来开发机器学习框架，以发现区分不同反应途径的相空间结构。SVM模型使用来自Hamilton方程的轨迹的数据进行培训，并且即使使用相对较少的轨迹也很好地运行。此外，该框架专门设计用于在系统中最初的先验知识。这使得我们的方法比现有的高维系统和系统的方法更适合，其中集成轨迹昂贵。我们在Chesnavich's Ch $ _4 ^ + $ Hamiltonian上基准测试我们的方法。

translated by 谷歌翻译

Planting and Mitigating Memorized Content in Predictive-Text Language Models

C. M. Downey , Wei Dai , Huseyin A. Inan , Kim Laine , Saurabh Naik , Tomasz Religa

分类：自然语言处理

2022-12-16

Language models are widely deployed to provide automatic text completion services in user products. However, recent research has revealed that language models (especially large ones) bear considerable risk of memorizing private training data, which is then vulnerable to leakage and extraction by adversaries. In this study, we test the efficacy of a range of privacy-preserving techniques to mitigate unintended memorization of sensitive user text, while varying other factors such as model size and adversarial conditions. We test both "heuristic" mitigations (those without formal privacy guarantees) and Differentially Private training, which provides provable levels of privacy at the cost of some model performance. Our experiments show that (with the exception of L2 regularization), heuristic mitigations are largely ineffective in preventing memorization in our test suite, possibly because they make too strong of assumptions about the characteristics that define "sensitive" or "private" text. In contrast, Differential Privacy reliably prevents memorization in our experiments, despite its computational and model-performance costs.

translated by 谷歌翻译

EDICT: Exact Diffusion Inversion via Coupled Transformations

Bram Wallace , Akash Gokul , Nikhil Naik

分类：计算机视觉 | 人工智能 | 机器学习

2022-11-22

Finding an initial noise vector that produces an input image when fed into the diffusion process (known as inversion) is an important problem in denoising diffusion models (DDMs), with applications for real image editing. The state-of-the-art approach for real image editing with inversion uses denoising diffusion implicit models (DDIMs) to deterministically noise the image to the intermediate state along the path that the denoising would follow given the original conditioning. However, DDIM inversion for real images is unstable as it relies on local linearization assumptions, which result in the propagation of errors, leading to incorrect image reconstruction and loss of content. To alleviate these problems, we propose Exact Diffusion Inversion via Coupled Transformations (EDICT), an inversion method that draws inspiration from affine coupling layers. EDICT enables mathematically exact inversion of real and model-generated images by maintaining two coupled noise vectors which are used to invert each other in an alternating fashion. Using Stable Diffusion, a state-of-the-art latent diffusion model, we demonstrate that EDICT successfully reconstructs real images with high fidelity. On complex image datasets like MS-COCO, EDICT reconstruction significantly outperforms DDIM, improving the mean square error of reconstruction by a factor of two. Using noise vectors inverted from real images, EDICT enables a wide range of image edits--from local and global semantic edits to image stylization--while maintaining fidelity to the original image structure. EDICT requires no model training/finetuning, prompt tuning, or extra data and can be combined with any pretrained DDM. Code is available at https://github.com/salesforce/EDICT.

translated by 谷歌翻译

Multi-Scale Contrastive Co-Training for Event Temporal Relation Extraction

Hao-Ren Yao , Luke Breitfeller , Aakanksha Naik , Chunxiao Zhou , Carolyn Rose

分类：自然语言处理 | 人工智能 | 机器学习

2022-09-01

在文本中提取时间关系是自然语言理解的一个至关重要但充满挑战的问题。根据事件之间的距离，模型必须学会从事件对周围的本地和全局环境中进行不同的信息以进行时间关系预测。学习如何融合这些信息已证明对基于变压器的语言模型具有挑战性。因此，我们介绍了mulco：多尺度对比的共同训练，这是一种更好地融合本地和全球情境化特征的技术。我们的模型使用基于BERT的语言模型编码本地上下文和图形神经网络（GNN）来表示全局文档级句法和时间特征。与以前的最先进方法不同，该方法在多视图功能上使用简单的串联或使用复杂的强化学习方法选择最佳句子，我们的模型Co-Trains GNN和BERT模块使用多规模的对比度学习目标。 GNN和BERT模块通过将GNN多层多跳子图（即，全局上下文嵌入）和BERT输出（即局部上下文嵌入）进行对比，从而学习了协同参数化。我们从经验上证明，与当前的最新技术相比，Mulco提供了改进的使用Bert和GNN编码的本地和全球环境的能力。我们的实验结果表明，Mulco在几个时间关系提取数据集上实现了新的最新结果。

translated by 谷歌翻译

HTML版本

Interactive Code Generation via Test-Driven User-Intent Formalization

Shuvendu K. Lahiri , Aaditya Naik , Georgios Sakkas , Piali Choudhury , Curtis von Veh , Madanlal Musuvathi , Jeevana Priya Inala , Chenglong Wang , Jianfeng Gao

分类：机器学习

2022-08-11

预先训练的大语言模型（LLM）（例如OpenAI Codex）通过从非正式自然语言（NL）意图中生成自然代码来自动化编码的重要方面。但是，生成的代码无法满足用户意图的任何正确性保证。实际上，很难定义正确性的概念，因为自然语言可能是模棱两可的，并且缺乏正式的语义。在本文中，我们通过提出测试驱动的用户形式化（TDUIF）的工作流程来解决以上问题的第一步，该工作流利用轻量级用户的反馈共同将用户的意图正式化为测试（部分规范）），（b）生成符合正式用户意图的代码。要对算法进行可扩展的大规模自动化评估，而无需循环中的用户，我们描述了如何使用参考解决方案模拟用户与高保真性的互动。我们还描述并实施了几种算法组件（包括突变和排名一组测试）的替代实现，这些实现可用于有效解决TDUIF问题。我们已经开发了一个系统的Ticoder，该系统实现了多种解决方案来进行TDUIF，并将其对MBPP学术代码生成基准测试的相对有效性进行了比较。在MBPP上使用OpenAI Codex LLM的结果很有希望：我们的最佳算法将通行证@1代码生成准确度指标从48.39％提高到单个用户查询，最高为85.48％，最多可达55.48％，最多可提供5个用户查询。其次，我们可以生成与用户意图在1.69个用户查询中的非平凡功能单位测试，该数据集为90.40％的示例，用于此数据集。

translated by 谷歌翻译

Learning to Improve Code Efficiency

Binghong Chen , Daniel Tarlow , Kevin Swersky , Martin Maas , Pablo Heiber , Ashish Naik , Milad Hashemi , Parthasarathy Ranganathan

分类：机器学习

2022-08-09

由摩尔定律驱动的计算系统性能的改善已改变了社会。由于这种硬件驱动的收益放缓，对于软件开发人员而言，专注于开发过程中的性能和效率变得更加重要。尽管几项研究表明了这种提高的代码效率的潜力（例如，与硬件相比，2倍更好的世代改进），但在实践中解锁这些收益是充满挑战的。关于算法复杂性以及硬件编码模式的相互作用的推理对于普通程序员来说可能是具有挑战性的，尤其是当与围绕开发速度和多人发展的务实约束结合使用时。本文旨在解决这个问题。我们分析了Google Code JAM竞争中的大型竞争编程数据集，并发现有效的代码确实很少见，中位数和第90％的解决方案之间的运行时间差异为2倍。我们建议使用机器学习以提示的形式自动提供规范反馈，以指导程序员编写高性能代码。为了自动从数据集中学习这些提示，我们提出了一种新颖的离散变异自动编码器，其中每个离散的潜在变量代表了不同的代码编辑类别，从而提高了性能。我们表明，此方法代表代码效率的多模式空间比序列到序列基线更好地编辑，并生成更有效的解决方案的分布。

translated by 谷歌翻译

Probing Semantic Grounding in Language Models of Code with Representational Similarity Analysis

Shounak Naik , Rajaswa Patil , Swati Agarwal , Veeky Baths

分类：自然语言处理

2022-07-15

代表性相似性分析是一种来自认知神经科学的方法，有助于比较来自两个不同数据源的表示。在本文中，我们建议使用代表性分析来探测代码语言模型中的语义基础。我们通过使用IBM Codenet数据集中的数据来探究Codebert模型的语义接地。通过我们的实验，我们表明当前的训练方法不会在代码的语言模型中诱导语义基础，而是专注于优化基于形式的模式。我们还表明，即使在语义相关任务上进行了一些微调，也会大大增加Codebert的语义基础。我们对Codebert模型的输入方式的消融表明，在单峰输入（仅代码）上使用双峰输入（代码和自然语言）（仅代码）可以在语义微调过程中提供更好的语义接地和样本效率。最后，我们在代码中使用语义扰动的实验表明，Codebert能够牢固地区分语义正确和不正确的代码。

translated by 谷歌翻译

Re2G: Retrieve, Rerank, Generate

Michael Glass , Gaetano Rossiello , Md Faisal Mahbub Chowdhury , Ankita Rajaram Naik , Pengshan Cai , Alfio Gliozzo

分类：自然语言处理 | 人工智能

2022-07-13

正如GPT-3和T5所证明的那样，随着参数空间变得越来越大，变压器具有能力。但是，对于需要大量知识的任务，非参数存储器允许模型在计算成本和GPU内存需求的次线性增加中急剧增长。诸如RAG和Realm之类的最新模型已将检索引入条件生成。这些模型结合了从一系列语料库中的神经初始检索。我们基于这一研究，提出了RE2G，该研究将神经初始检索和重新融合到基于巴特的序列到序列的生成中。我们的阅读方法还允许从无与伦比分数的来源合并结果，从而实现BM25和神经初始检索的合奏。为了训练我们的系统端到端，我们引入了一种新颖的知识蒸馏变体，以在目标序列输出上仅使用地面真理来训练初始检索，重读者和生成。我们在四个不同的任务中发现了很大的收益：零击插槽填充，问答，事实检查和对话，相对增长了9％至34％，比以前的苏格兰短裙排行榜上的最先前的排行榜相比。我们将代码作为开源提供，网址为https://github.com/ibm/kgi-slot-filling/tree/re2g。

translated by 谷歌翻译

A Medical Information Extraction Workbench to Process German Clinical Text

Roland Roller , Laura Seiffe , Ammer Ayach , Sebastian Möller , Oliver Marten , Michael Mikhailov , Christoph Alt , Danilo Schmidt , Fabian Halleck , Marcel Naik

分类：自然语言处理

2022-07-08

背景：在信息提取和自然语言处理域中，可访问的数据集对于复制和比较结果至关重要。公开可用的实施和工具可以用作基准，并促进更复杂的应用程序的开发。但是，在临床文本处理的背景下，可访问数据集的数量很少 - 现有工具的数量也很少。主要原因之一是数据的敏感性。对于非英语语言，这个问题更为明显。方法：为了解决这种情况，我们介绍了一个工作台：德国临床文本处理模型的集合。这些模型接受了德国肾脏病报告的识别语料库的培训。结果：提出的模型为内域数据提供了有希望的结果。此外，我们表明我们的模型也可以成功应用于德语的其他生物医学文本。我们的工作台公开可用，因此可以开箱即用，或转移到相关问题上。

translated by 谷歌翻译

Applying data technologies to combat AMR: current status, challenges, and opportunities on the way forward

Leonid Chindelevitch , Elita Jauneikaite , Nicole E. Wheeler , Kasim Allel , Bede Yaw Ansiri-Asafoakaa , Wireko A. Awuah , Denis C. Bauer , Stephan Beisken , Kara Fan , Gary Grant

分类：人工智能 | 机器学习

2022-07-05

抗微生物抗性（AMR）是日益增长的公共卫生威胁，估计每年造成超过1000万人死亡，在现状预测下，到2050年，全球经济损失了100万亿美元。这些损失主要是由于治疗失败的发病率和死亡率增加，医疗程序中的AMR感染以及归因于AMR的生活质量损失所致。已经提出了许多干预措施来控制AMR的发展并减轻其传播带来的风险。本文回顾了细菌AMR管理和控制的关键方面，这些方面可以利用人工智能，机器学习以及数学和统计建模等数据技术，这些领域在本世纪已经快速发展。尽管数据技术已成为生物医学研究的组成部分，但它们对AMR管理的影响仍然很小。我们概述了使用数据技术来打击AMR，详细介绍了四个互补类别的最新进展：监视，预防，诊断和治疗。我们在生物医学研究，临床实践和“一个健康”背景下使用数据技术提供了有关当前AMR控制方法的概述。我们讨论了数据技术的潜在影响和挑战在高收入和中等收入国家中面临的实施，并建议将这些技术更容易地整合到医疗保健和公共卫生中所需的具体行动，并建议使用具体的行动部门。

translated by 谷歌翻译